端到端训练

MooER

MooER是一款基于国产全功能GPU训练的开源音频理解大模型,由摩尔线程推出。它能够进行中文和英文的语音识别,并具备中译英的语音翻译能力。MooER在Covost2中译英测试集中取得25.2的BLEU分数,接近工业级标准。其主要功能包括语音识别、语音翻译、高效率训练以及开源模型。该模型采用深度学习架构和端到端训练模式,具有强大的多语言处理能力和广泛的适用性。

MarDini

MarDini是一款融合掩码自回归(MAR)和扩散模型(DM)的先进视频生成工具,支持视频插值、图像到视频生成、视频扩展等多种任务。它通过优化计算资源分配,提高了视频生成的效率与灵活性,并具备从无标签数据中进行端到端训练的能力,展现出强大的可扩展性与效率。

The Language of Motion

The Language of Motion是一款由斯坦福大学李飞飞团队开发的多模态语言模型,能够处理文本、语音和动作数据,生成对应的输出模态。该模型在共同语音手势生成任务上表现出色,且支持情感预测等创新任务。它采用编码器-解码器架构,并通过端到端训练实现跨模态信息对齐。The Language of Motion广泛应用于游戏开发、电影制作、虚拟现实、增强现实及社交机器人等领域,推动了虚拟角色自

MMedAgent

MMedAgent是一款面向医疗领域的多模态AI平台,集成了指令优化的多模态大型语言模型(MLLM)及一系列定制化医疗工具,支持多种医学成像模式(如MRI、CT、X射线等),可高效处理视觉问答、分类、定位、分割、医学报告生成(MRG)及检索增强生成(RAG)等任务,显著提升了医疗数据处理效率与准确性。

Helix

Helix 是 Figure 公司推出的视觉-语言-动作(VLA)模型,专为人形机器人设计,支持对上半身的高精度、高频次控制,频率达 200Hz。它能基于自然语言指令执行未见过的物品操作,具备强大的泛化能力。系统采用端到端训练方式,可在低功耗设备上运行,适用于多机器人协作、家庭服务、工业自动化等多种场景,具有较高的商业化潜力。

PixelFlow

PixelFlow是由香港大学与Adobe联合开发的图像生成模型,支持在像素空间中直接生成高质量图像。其基于流匹配技术和多尺度生成策略,实现从低分辨率到高分辨率的逐步生成,有效降低计算成本。该模型在类别条件图像生成和文本到图像生成任务中表现优异,具备强大的语义理解和视觉表达能力。此外,PixelFlow采用端到端训练方式,支持多种ODE求解器,适用于艺术设计、内容创作、教育研究等多个领域。

Nvidia·GET3D

我们通过两个潜在代码生成 3D SDF 和纹理场。我们利用 DMTet 从 SDF 中提取 3D 表面网格,并查询表面点处的纹理场以获取颜色。我们使用在 2D 图像上定义的对抗损失进行训练。

MGIE

MGIE 是苹果团队开源的一款 AI 图像编辑工具,它利用多模态大模型来增强图像编辑的指令引导能力。用户只需拍摄照片并输入文字指令,MGIE 便能够自动进行图像编辑,实现用户所需的...